資料分析是一種統計方法,其主要特點是多維性和描述性,有些幾何方法有助於揭示不同的資料之間存在的關係,並繪製出統計資訊圖,以更簡潔的解釋這些資料中包含的主要資訊,其他一些用於收集資料,以便弄清哪些是同質的,從而更好地了解資料(源自維基百科)。直白一點的說法就是將一筆資料透過統計圖或其他工具,呈現出資料新的樣貌,讓其他人更快了解資料,進而進行決策與分析。
還記得前年系上剛開了一門新的課叫資料科學,那時只聽同學說這是未來的趨勢,什麼都不懂的我就跟風跟著大家去選,最後去上課後才知道老師要我們分組做專案,我只好走向退選一路,隔年不服輸我又再次挑戰這門課,可說是下足了苦心,在網路上東找西找,不斷找同學老師問問題,最後終於勉強讓自己搞出兩個專案。
現今網際網路越來越發達,不論是製造業、服務業、金融業、醫療等,而一些數據資料也漸漸走向電子化,當我們手上握有大筆資料,就能透過資料找出規律及問題點,進而做出決策並改善問題。
其實不只統計,若想要在這門學問上走得更深更長遠就必須具備許多知識理論,包含微積分、線性代數等。但在前期連資料分析都不知道在做什麼的情況下,讀得再深也不知道如何下手。
因此本系列的重點將會擺在實作的部分,透過一些簡單的實作入門迅速了解資料科學的功用及方法,在往後遇到更難的問題也可以將自己的能力補強,使資料分析的能力漸漸增強、增廣。
其實資料分析的用途很廣,舉一些經典的例子,我想大家都有聽過尿布啤酒吧,在以前沒有資料的時代可能很難將這兩樣商品聯想在一起,但透過數據分析的方式,找到兩樣商品之間的關聯性,使得銷售策略可以比別人更勝一籌。
在醫療方面,以前醫生看到X光片後,利用自身的經驗去做判斷,是否有肺炎,但現在透過圖像辨識,大量資料的訓練,判斷的準確率竟遠遠高過於醫生用肉眼所判斷的,且可以達到快速判斷的成效。可以看到下圖醫生手動標記只能標示出大概的點,而AI系統卻能精準的標示區塊。都是利用大量的資料學習而來。(圖片來源:https://trh.gase.most.ntnu.edu.tw/tw/article/content/113)
其實資料科學還有許多方面的應用,這裡就不再多加贅述,舉一些例子給大家知道,未來各行各業都會因為資料分析而得到更大的發展與成就,因此資料科學這門學問才會在現今扮演如此重要的角色,能夠搭上這股潮流的順風車也是相當有"錢途"的,明天開始就會帶大家打開新世界的大門,從最開始的環境安裝及一些套件的使用,跟大家一起來學習。